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(|5) Verfahren zur Verbesserung der Spracherkennung unter Berucksichtigung verschiedener digitaler 
Codierbedingungen 

(§) Urn eine optimaie Spracherkennung zu ermdglichen, wird 
zunachst dasjenige Codierverfahren ermittelt, welches bei 
einer uber ein Kommunikationsnetz ankommenden Sprach- 
auSerung angewendet worden ist. Dieses Ermittlungsergeb- 
nis soli dazu dienen, die Qualitat einer Spracherkennung 
wesentlich zu erhdhen. 

Es sind mehrere Spracherkenner vorgesehen, wo von jeder 
einzelne fur ein ganz bestimmtes Codierverfahren zustandig 
ist. Die Wortmodelle eines jeden Spracherkenners wurden 
aus SprachauSerungen erzeugt, die nach dem betreffenden 
Verfahren codiert waren. Die aus einer aktuellen, zu erken- 
nenden Sprachaufierung errechneten Merkmalsvektoren 
werden einem Codeerkenner angeboten, in welchem fur 
jedes Codierverfahren ein aus den Merkmalsvektoren der 
entsprechenden Referenzmuster errechneter Mittelwert ab- 
gespeichert ist. Es findet ein Vergleich dieser Mittelwerte 
mit den Merkmalsvektoren der zu erkennenden SprachauBe- 
rung start. Mit der sich dabei ergebenden geringsten 
Differenz ist dann dasjenige Codierverfahren erkannt wor- 
den, mit dem die zu erkennende SprachauSerung codiert 
wurde. Daraufhin wird derjenige von men re re n Spracher- 
kennern aktiviert. der fur das betreffende Codierverfahren 
zustandig ist. 

Durch schnelle Ermittlung desjenigen Codierverfahrens, 
welches bei einer ankommenden, zu erkennenden Sprach- 
au fie rung angewendet wurde, wird durch den darauf spezia- 
lisierten Spracherkenner eine hone Qualitat der Erkennungs- 
ergebnisse erreicht, die auch bei Codierverfahren mit niedri- 
ger ... 

Die folgenden Angaben sand den vom Anmelder eingereichten Unterlagen entnommen 
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Die Erfindung betrifft ein Verfahren zur Verbesse- 
rung der Spracherkennung unter Berucksichtigung ver- 
schiedener digitaler Codierbedingungen nach dem 
Oberbegriff des Patentanspruchs 1. 

Ein MeBverfahren zum Beurteilen der Gute von 
Sprachcodierern und/oder Obertragungsstrecken ist 
beschrieben in der DE37 08 002A1. In der Beschrei- 
bungseinleitung (Spake 2) ist angegeben, daB die Art 
des Codierverfahrens und auch die Beschaffenheit einer 
Ubertragungsstrecke einen groBen EinfluB haben auf 
die Sprachgute und die Verstandlichkeit der an einen 
Empfanger ankommenden Sprachinformation. In dieser 
Schrift wird ein MeBverfahren angegeben, wobei mit 
Hilfe eines Spracherkenners oder eines Sprechererken- 
ners festgestellt wird, wie groB die Wahrscheinlichkeit 
ist, daB abgegebene SprachauBerungen richtig erkannt 
werden. Hierbei werden verschiedene Sprachcodierer 
oder Ubertragungsstrecken in den Sprechweg einge- 
schleift, so daB festgestellt werden kann, wie groB der 
Anteil der nchtig erkannten SprachauBerungen bei un- 
terschiedlichen Codierverfahren ist Mit einem derarti- 
gen Verfahren kann festgestellt werden, welches der 
verschiedenen Codierverfahren fur eine elektronische 
Spracherkennung am geeignetsten ist und bei welchen 
Codierverfahren eine mindere Qualitat der Spracher- 
kennung zu erwarten ist Hierfur wird ein einziger 
Spracherkenner benutzt, der vorgegebene SprachauBe- 
rungen Qbermitteit bekommt und diese erkennt Dabei 
werden jeweils die vorher bekannten wahren Bedeutun- 
gen mit den erkannten Ergebnissen verglichen. Eine An- 
passung des Spracherkenners an ein Codierverfahren 
findet nicht statt 

Aus der DE 43 25 404 Al ist ein Verfahren zum Er- 
mitteln und Klassifizieren von Storgerauschtypen be- 
kannt Damit soil erreicht werden, daB ein Spracherken- 
ner optimal an ein erkanntes Storgerausch angepaBt 
werden kann, urn die Spracherkennung zu optimieren. 
Zu diesem Zweck sind sogenannte Codebuch-Speicher 
vorgesehen, welche die Referenzmuster der jeweils zu 
erkennenden SprachauBerungen enthalten. AuBer ei- 
nem Standardcodebuch, in welchem die Referenzmu- 
ster der reinen Sprache enthalten sind, ist fur jeden zu 
erkennenden Gerauschtyp ein eigenes Codebuch erfor- 
derlich. Diese Referenzmuster mussen zusammen mit 
dem jeweiligen Gerausch durch einen Trainings vorgang 
erstellt werden. Eine zu erkennende SprachauBerung 
wird einer Sprachanalyseeinheit angeboten, die Merk- 
malsvektoren bildet und die Haufigkeitsverteilungen, 
die aus einer Vektorquantisierung resultieren, ebenfalls 
ermittelt Es mussen nun umfangreiche Vergleichsrech- 
nungen stattfinden, um die abgelegten Indexdaten mit 
den aus der Vektorquantisierung der eingegebenen 
SprachauBerung sich ergebenden Haufigkeitsverteilun- 
gen zu vergleichen. Der sich bei diesem Rechenvorgang 
ergebende Extremwert der Differenzen kennzeichnet 
einen gefundenen Storgerauschtyp. Daraufhin wird 
dann dem Spracherkenner das zu diesem Storgerausch- 
typ passende Codebuch zugeschaltet, womit dann die 
Spracherkennung stattfinden kann. 

Obwohl bei diesem Verfahren bereits gegenuber vor- 
bekannten Anordnungen eine Reduzierung der Spei- 
cherkapazitat und der Rechenleistung erreicht wurde, 
ist der Aufwand dennoch relativ hoch. AuBerdem wer- 
den bei einem derartigen Verfahren Einflusse von Co- 
dierverfahren, wie sie auf Obertragungsstrecken einge- 
setzt werden, nicht berucksichtigt 



Die Aufgabe der Erfindung besteht darin, ein Verfah- 
ren anzugeben, mit dem dasjenige von mehreren be- 
kannten Codierverfahren ermittelt werden kann, wel- 
ches bei einer zu erkennenden aktuellen Sprach'auBe- 
5 rung angewendet worden ist. Daraufhin soil ein Sprach- 
erkenner eingesetzt werden, dessen zugehdrige Refe- 
renzmuster mit diesem Codierverfahren erstellt wurden, 
damit optimale Ergebnisse erreicht werden, wenn uber 
ein Kommunikationsnetz ubertragene Sprache erkannt 
io werden soil. 

Zur Losung dieser Aufgabe ist eine Merkmalskombi- 
nation vorgesehen, wie sie im Patentanspruch 1 angege- 
benist 

Damit wird in vorteilhafter Weise erreicht, daB ein 
is Codierungsverfahren, welches bei einer uber ein Kom- 
munikationsnetz ankommenden, zu erkennenden 
SprachauBerung angewendet wurde, schnell gefunden 
wird. Daraufhin wird derjenige Spracherkenner ange- 
steuert, welcher fur dieses Codierverfahren optimal aus- 
20 gelegt ist Somit ergibt sich eine hohe Qualitat bei der 
Spracherkennung, die auch bei Codierverfahren mit 
niednger Bitrate ausreichend ist. 

Weiterbildung der Erfindung ergeben sich aus den 
Unteranspruchen. 
25 Ein Ausfuhrungsbeispiel der Erfindung wird nachfol- 
gend anhand einer Zeichnung naher erlautert In der 
Zeichnung ist schematisch dargestellt, wie eine von ei- 
nem Mikrofon M aufgenommene sprachliche AuBerung 
uber ein Kommunikationsnetz KN an den Eingang E 
30 einer Sprachanalyse-Einrichtung SPA gelangt Auf dem 
Ubertragungsweg innerhalb des Kommunikationsnet- 
zes KN sind iiblicherweise Codiereinrichtungen CD 
vorgesehen. Es kann nicht unbedingt davon ausgegan- 
gen werden, daB die am Eingang E einer Sprachanalyse- 
35 Emnchtung SPA anstehende, zu erkennende sprachli- 
che AuBerung immer mit dem gleichen Codierverfahren 
angeboten wird. Um eine hohe Qualitat bei der Sprach- 
erkennung zu erreichen, soli zunachst herausgefunden 
werden, welches Codierverfahren innerhalb des Kom- 
40 munikationsnetzes KN angewendet wurde. 

In der Sprachanalyse-Einrichtung SPA wird eine zu 
erkennende SprachauBerung, beispielsweise ein Wort, 
in zeitliche Abschnitte zerlegt, wovon in bekannte Wei- 
se Merkmalsvektoren MV errechnet werden Diese 
45 Merkmalsvektoren MV werden der Reihe nach in ei- 
nem Merkmalsvektorspeicher MVSP abgelegt Von 
dort aus werden sie einem Codeerkenner CE angebo- 
ten, welcher diese Merkmalsvektoren MV mit Mittel- 
werten MW1 bis MWn vergleicht, welche aus Merk- 
50 malsvektoren gebildet wurden, die beim Trainieren von 
Wortmustern entstanden sind. Jeder einzelne dieser 
Mittelwerte MWl bis MWn stammt dabei aus Merk- 
malsvektoren, welche einem bestimmten Codierverfah- 
ren zugeordnet sind, das heiBt, diese Merkmalsvektoren 
55 wurden von SprachauBerungen gewonnen, die unter 
Einsatz des betreffenden Verfahrens codiert wurden. 
Beim Vergleichen der von einer aktuellen SprachauBe- 
rung gewonnenen Merkmalsvektoren MV mit den im 
Codeerkenner CE abgelegten Mittelwerten MWl bis 
60 MWn ergeben sich mehr oder weniger groBe Differen- 
zen. Dabei wird herausgefunden, bei welchem Mittel- 
wert MWl bis MWn sich die geringste Differenz ergibt 
Da derjenige Mittelwert, z. B. MWl, bei dem sich die 
geringste Differenz beim Vergleichen mit den Merk- 
65 malsvektoren MV der aktuellen SprachauBerung ergibt, 
einem Codierverfahren zugeordnet ist, ist dieses somit 
als dasjenige erkannt worden, welches innerhalb des 
Kommunikationsnetzes KN angewendet wurde. Wenn 
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der Codeerkenner CE ein derartiges Ergebnis, das heiBt 
die geringste Different festgestellt hat, so wird ein 
Schaltmittel SM angesteuert, urn einen von mehreren 
Spracherkennern SE1 bis SEn anzusteuern. Unter der 
Annahme, daQ im Codeerkenner CE die geringste Diffe- 5 
renz zwischen dem Mitteiwert MW1 und den aus einer 
aktueilen SprachauBerung ermittehen Merkmalsvekto- 
ren MV erkannt wird. wird Qber das Schaltmittel SM der 
Ausgang des Merkmalvektorspeichers MVSP mit dem 
Eingang des Spracherkenners SE1 verbunden. Die in ;o 
diesem Spracherkenner SE1 abgelegten Referenzmu- 
ster fur zu erkennende Worte sind in bekannter Weise 
wahrend einer Trainingsphase entstanden, wobei das 
betreffende Codierungsverfahren, beispielsweise 
ADPCM. angewendet wurde. Dieser Spracherkenner is 
SE1 liefert deshalb bessere Ergebnisse als einer der an- 
deren Spracherkenner SE2 bis SEn liefern wurde. Somit 
erscheint am Ausgang A bei jedem Codierverfahren, fur 
welches jeweils ein Spracherkenner SE1 bis SEn vorge- 
sehen ist. ein optimales Erkennungsergebnis. 20 

Die mit diesem Verfahren erzielbaren Ergebnisse 
konnen noch weiter gesteigert werden, wenn innerhalb 
des Codeerkenners CE nicht nur einzelne Mittelwerte 
MW1 bis MWn gespeichert sind, sondern auch die Ko- 
varianzen, welche sich aus den beim Training erzeugten 25 
Merkmalsvektoren ergeben. Diese Kovarianzen sind 
dann in einem Speicher des Codeerkenners CE bezogen 
auf das jeweilige Codierverfahren abgelegt. In diesem 
Fall werden von den Merkmalsvektoren MV der aktuei- 
len Sprachanaiyse die Werte von GauBschen Vertei- 30 
lungskurven produziert, so daB einzelne Dichtewerte 
miteinander verglichen werden konnen. Mit diesem er- 
hohten Aufwand kann die Erkennungssicherheit we- 
sentlich gesteigert werden. 

AuBerdem ist es moglich, mehrere aus ein und dersel- 35 
ben Verbindung stammende SprachauBerungen im Co- 
deerkenner CE nach der vorbeschriebenen Weise zu 
untersuchen, wobei jede sich bei einer einzelnen 
SprachauBerung ergebende Differenz zwischen deren 
Merkmalsvektoren MV und den Mittelwerten MWt bis 40 
MWn zwischengespeichert wird. Diese einzelnen Diffe- 
renzwerte werden dann bezogen auf jeden einzelnen 
Mitteiwert MW1 bis MWn getrennt aufsummiert, so 
daB der dann sich ergebende geringste Summenwert 
das angewandte Codierverfahren genauer bestimmen 45 
kann. Somit kann einer der Spracherkenner SE1 bis SEn 
mit groBerer Sicherheit als der am besten passende aus- 
gewahlt werden. 

Patentanspriiche 50 

1. Verfahren zur Verbesserung der Spracherken- 
nung unter Beriicksichtigung verschiedener digita- 
ler Codierbedingungen mit niedriger Bitrate, wobei 
durch Training mit mehreren Sprechern gewonne- 55 
ne Wortmodelle abgespeichert sind, die als Refe- 
renzmuster zum Vergleich mit zu erkennenden 
Worten dienen, damit die Vergleichsergebnisse mit 
einer hohen Erkennungswahrscheinlichkeit vorlie- 
gen, 60 
dadurch gekennzeichnet, 

daB mehrere Spracherkenner (SPE1 bis SPEn) vor- 
gesehen sind wovon jeder einzelne fur ein ganz 
bestimmtes Codierverfahren, z. B. PCM mit 64 
kBit/s, ADPCM, CELP nach CCITT G728, zustan- 6 5 
dig ist, wobei die darin befindlichen Referenzmu- 
ster der Wortmodelle mit dem zugehorigen Codier- 
verfahren erzeugt wurden, 
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daB eine zu erkennende SprachauBerung zunachst 
einer Sprachanalyse-Einrichtung (SPA) zugefuhrt 
wird, welche daraus Merkmalsvektoren (MV) er- 
zeugt, die anschlieBend in einen Merkmalsvektor- 
speicher(MVSP) gelangen, 

daB die Merkmalsvektoren (MV) einem Codeer- 
kenner (CE) angeboten werden, in welchem fur je- 
des Codierverfahren ein aus den Merkmalsvekto- 
ren der entsprechenden Referenzmuster errechne- 
ter Mitteiwert (MW1 bis MWn) abgespeichert ist, 
daB die Merkmalsvektoren (MV) der zu erkennen- 
den SprachauBerung mit jedem dieser Mittelwerte 
(MW1 bis MWn) verglichen werden, wobei die ge- 
ringste Differenz iiber alle Merkmalsvektoren 
(MV) einer SprachauBerung ermittelt wird, welche 
dann dasjenige Codierverfahren kennzeichnet, mit 
dem die zu erkennende SprachauBerung codiert 
wurde, 

und daB dann derjenige von mehreren Spracher- 
kennern (SPE1 bis SPEn) mit dem Merkmalsvek- 
torspeicher (MVSP) verbunden wird, der fur das 
erkannte Codierverfahren zustandig ist, um die ei- 
gentliche Spracherkennung durchzufuhren. 

2. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB der Codeerkenner (CE) beim Vergiei- 
chen der Mittelwerte (MW1 bis MWn) mit den 
Merkmalsvektoren (MV) auch deren Kovarianzen 
in Form einer GauB-Verteilung berucksichtigt, in- 
dem einzelne Dichtewerte miteinander verglichen 
werden. 

3. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB bei mehreren untersuchten Sprachau- 
Berungen die bei vorangegangenen Ermittlungen 
erkannten Differenzen berucksichtigt werden, in- 
dem die einzelnen sich ergebenden Differenzen 
zwischen den Merkmalsvektoren (MV) und den 
Mittelwerten (MW1 bis MWn) fur jedes Codierver- 
fahren aufsummiert werden, wobei die geringste 
Summe das erkannte Codierverfahren kennzeich- 
net 

4. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB elektronische Schaltmittel (SM) vor- 
gesehen sind, womit der Merkmalsvektorspeicher 
(MVSP) mit dem entsprechenden Spracherkenner 
(z. B. SPE1) verbindbar ist, und daB diese Schaltmit- 
tel (SM) vom Codeerkenner (CE) direkt gesteuert 
werden. 
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